Optimisation convexe : conditions d'optimalité pour les contraintes d'égalité

Imaginez un système physique, comme une chaîne suspendue, cherchant son état de plus basse énergie. Si les extrémités sont fixées, le système ne peut pas se déplacer librement. L'optimalité est atteinte lorsque les forces internes (le gradient de l'énergie potentielle) sont parfaitement équilibrées par les forces de tension exercées par les contraintes. En optimisation convexe, cet équilibre est décrit par les conditions de KKT pour les contraintes d'égalité.

La géométrie de la faisabilité

Pour un problème convexe avec des contraintes d'égalité $Ax=b$, un vecteur $v \in \mathbf{R}^n$ est une direction admissible si $Av = 0$. Cela signifie que se déplacer dans la direction $v$ préserve la contrainte : $A(x+v) = b$ si $Ax=b$.

Pour que $x^*$ soit optimal, le dérivée directionnelle $\nabla f(x^*)^T v$ doit être nulle pour toutes les directions admissibles $v$ dans le noyau $\mathcal{N}(A)$. Cela implique que le gradient $\nabla f(x^*)$ doit être orthogonal à $\mathcal{N}(A)$, ce qui conduit à l'existence des multiplicateurs de Lagrange.

La condition d'optimalité

Un point $x^*$ est optimal si et seulement s'il existe un vecteur $\nu^* \in \mathbb{R}^p$ tel que :

$\nabla f(x^*) + A^T \nu^* = 0$

Ceci forme un système d'équations linéaires qui caractérise l'équilibre entre la descente de l'objectif et la variété des contraintes.

Le gradient projeté

La projection euclidienne du gradient négatif $-\nabla f(x)$ sur le noyau $\mathcal{N}(A)$ est donnée par :

$\Delta x_{\text{pg}} = \text{argmin}_{Au=0} \| -\nabla f(x) - u \|_2$

Ce vecteur représente la "meilleure" direction de descente admissible. De façon cruciale, $x$ est optimal si et seulement si $\Delta x_{\text{pg}} = 0$.

Le système de KKT et les propriétés matricielles

Nous pouvons résoudre simultanément l'étape de Newton et les variables duales en utilisant le système par blocs :

$$\begin{bmatrix} I & A^T \\ A & 0 \end{bmatrix} \begin{bmatrix} v \\ w \end{bmatrix} = \begin{bmatrix} -\nabla f(x) \\ 0 \end{bmatrix}$$

Remarque sur les propriétés spectrales de la matrice : La matrice de KKT est symétrique mais indéfinie. Si la matrice est non singulière, elle possède exactement $n$ valeurs propres positives et $p$ négatives. Cela implique que le point optimal $(x^*, \nu^*)$ est un point de selle de la fonction de Lagrange $L(x, \nu) = f(x) + \nu^T(Ax-b)$, plutôt qu'un minimum local simple dans l'espace primal-duel combiné.

🎯 Principe fondamental

L'optimalité dans les problèmes sous contraintes d'égalité exige que le gradient soit orthogonal au noyau de la contrainte. Cela nous permet d'interpréter l'étape de Newton comme la solution d'une approximation linéarisée des conditions de KKT.

QUESTION 1

Qu'est-ce qui définit une 'direction admissible' $v$ en un point $x$ pour la contrainte $Ax = b$ ?

$Av = b$

$Av = 0$

$\|v\|_2 = 1$

$A^T v = 0$

QUESTION 2

Quelle est l'interprétation physique de la condition $\nabla f(x^*) + A^T \nu^* = 0$ ?

Le gradient est nul dans toutes les directions.

La fonction objectif a atteint un minimum global sans contraintes.

La force interne (gradient) est équilibrée par la 'tension' provenant des contraintes.

Les multiplicateurs de Lagrange doivent tous être positifs.

QUESTION 3

Si la matrice de KKT est non singulière, quelle est sa signature spectrale ?

Toutes les $n+p$ valeurs propres sont positives.

$n$ valeurs propres positives et $p$ négatives.

$p$ valeurs propres positives et $n$ négatives.

Toutes les valeurs propres sont réelles et non nulles, mais leurs signes dépendent de $f(x)$.

QUESTION 4

Le gradient projeté $\Delta x_{\text{pg}}$ est nul si et seulement si :

Le gradient $\nabla f(x)$ est nul.

Le point $x$ est dans le noyau de $A$.

Le point $x$ satisfait les conditions d'optimalité du premier ordre.

La matrice $A$ est carrée et inversible.

QUESTION 5

Dans le système $\begin{bmatrix} I & A^T \\ A & 0 \end{bmatrix} \begin{bmatrix} v \\ w \end{bmatrix} = \begin{bmatrix} -\nabla f(x) \\ 0 \end{bmatrix}$, que représente $v$ ?

La solution optimale $x^*$.

Le vecteur des multiplicateurs de Lagrange.

Le gradient projeté $\Delta x_{\text{pg}}$.

Le résidu primal $Ax - b$.